智能论文笔记

OA-SLAM: Leveraging Objects for Camera Relocalization in Visual SLAM

Matthieu Zins , Gilles Simon , Marie-Odile Berger

分类：计算机视觉

2022-09-17

在这项工作中，我们探讨了对物体在看不见的世界中同时本地化和映射中的使用，并提出了一个对象辅助系统（OA-Slam）。更确切地说，我们表明，与低级点相比，物体的主要好处在于它们的高级语义和歧视力。相反，要点比代表对象（Cuboid或椭圆形）的通用粗模型具有更好的空间定位精度。我们表明，将点和对象组合非常有趣，可以解决相机姿势恢复的问题。我们的主要贡献是：（1）我们使用高级对象地标提高了SLAM系统的重新定位能力；（2）我们构建了一个能够使用3D椭圆形识别，跟踪和重建对象的自动系统；（3）我们表明，基于对象的本地化可用于重新初始化或恢复相机跟踪。我们的全自动系统允许对象映射和增强姿势跟踪恢复，我们认为这可以极大地受益于AR社区。我们的实验表明，可以从经典方法失败的视点重新定位相机。我们证明，尽管跟踪损失损失，但这种本地化使SLAM系统仍可以继续工作，而这种损失可能会经常发生在不理会的用户中。我们的代码和测试数据在gitlab.inria.fr/tangram/oa-slam上发布。

translated by 谷歌翻译

Perspective-1-Ellipsoid: Formulation, Analysis and Solutions of the Ellipsoid Pose Estimation Problem in Euclidean Space

Vincent Gaudillière , Gilles Simon , Marie-Odile Berger

分类：计算机视觉

2022-08-26

在计算机视觉中，从3D几何实体之间的对应关系及其对图像的投影进行了摄影姿势估计已被广泛研究。尽管大多数最先进的方法利用了诸如点或线之类的低级原始方法，但近年来非常有效的基于CNN的对象探测器的出现为使用具有有意义语义有意义的高级功能铺平了道路信息。开拓性朝这个方向起作用，表明通过椭圆形对3D对象进行建模，而椭圆检测2D检测则提供了方便的方式来链接2D和3D数据。但是，相关垃圾中最常使用的数学形式主义不能轻易将椭圆形和椭圆形和其他四边形和圆锥形区分开，从而导致某些发展中可能有害的特异性丧失。此外，投影方程的线性化过程产生了相机参数的过度代表，也可能导致效率损失。因此，在本文中，我们引入了一个特定于椭圆形的理论框架，并在姿势估计的背景下证明了其有益的特性。更确切地说，我们首先表明拟议的形式主义使椭圆形姿势估计问题将其减少到仅位置或方向估计问题，其中剩余未知数可以以封闭形式得出。然后，我们证明它可以进一步简化为1个自由度（1DOF）问题，并提供姿势的分析表达，这是该唯一标量未知的函数。我们通过视觉示例说明了我们的理论考虑。最后，我们发布了这项工作，以便为更有效的椭圆形相关姿势估计问题做出贡献。

translated by 谷歌翻译

HTML版本

Level Set-Based Camera Pose Estimation From Multiple 2D/3D Ellipse-Ellipsoid Correspondences

Matthieu Zins , Gilles Simon , Marie-Odile Berger

分类：计算机视觉

2022-07-16

在本文中，我们提出了一个基于对象的摄像头姿势效果估计，并从单个RGB图像和以椭圆形模型表示的对象图中构建图。我们表明，与点对应关系相反，表征3D对象在2D对象检测上的投影的成本函数的定义并不简单。我们根据水平集采样开发了椭圆形成本，展示了其处理部分可见对象并将其性能与其他常见指标进行比较的良好属性。最后，我们表明，在检测到的椭圆上使用预测性不确定性允许对对应关系的贡献进行公平的权衡，从而改善了计算的姿势。该代码在https://gitlab.inria.fr/tangram/level-set基于camera-pose-Estimation上发布。

translated by 谷歌翻译

Batchless Normalization: How to Normalize Activations with just one Instance in Memory

Benjamin Berger

分类：机器学习 | 神经与进化计算

2022-12-30

In training neural networks, batch normalization has many benefits, not all of them entirely understood. But it also has some drawbacks. Foremost is arguably memory consumption, as computing the batch statistics requires all instances within the batch to be processed simultaneously, whereas without batch normalization it would be possible to process them one by one while accumulating the weight gradients. Another drawback is that that distribution parameters (mean and standard deviation) are unlike all other model parameters in that they are not trained using gradient descent but require special treatment, complicating implementation. In this paper, I show a simple and straightforward way to address these issues. The idea, in short, is to add terms to the loss that, for each activation, cause the minimization of the negative log likelihood of a Gaussian distribution that is used to normalize the activation. Among other benefits, this will hopefully contribute to the democratization of AI research by means of lowering the hardware requirements for training larger models.

translated by 谷歌翻译

AI Art in Architecture

Joern Ploennigs , Markus Berger

分类：人工智能

2022-12-19

Recent diffusion-based AI art platforms are able to create impressive images from simple text descriptions. This makes them powerful tools for concept design in any discipline that requires creativity in visual design tasks. This is also true for early stages of architectural design with multiple stages of ideation, sketching and modelling. In this paper, we investigate how applicable diffusion-based models already are to these tasks. We research the applicability of the platforms Midjourney, DALL-E 2 and StableDiffusion to a series of common use cases in architectural design to determine which are already solvable or might soon be. We also analyze how they are already being used by analyzing a data set of 40 million Midjourney queries with NLP methods to extract common usage patterns. With this insights we derived a workflow to interior and exterior design that combines the strengths of the individual platforms.

translated by 谷歌翻译

ALARM: Active LeArning of Rowhammer Mitigations

Amir Naseredini , Martin Berger , Matteo Sammartino , Shale Xiong

分类：机器学习

2022-11-30

Rowhammer is a serious security problem of contemporary dynamic random-access memory (DRAM) where reads or writes of bits can flip other bits. DRAM manufacturers add mitigations, but don't disclose details, making it difficult for customers to evaluate their efficacy. We present a tool, based on active learning, that automatically infers parameter of Rowhammer mitigations against synthetic models of modern DRAM.

translated by 谷歌翻译

Temporally Adjustable Longitudinal Fluid-Attenuated Inversion Recovery MRI Estimation / Synthesis for Multiple Sclerosis

Jueqi Wang , Derek Berger , Erin Mazerolle , Othman Soufan , Jacob Levman

分类：计算机视觉

2022-09-09

多发性硬化症（MS）是一种慢性进行性神经系统疾病，其特征是大脑白质病变的发展。相对于其他MRI模态，T2流体体面的反转恢复（FLAIR）脑磁共振成像（MRI）提供了MS病变的卓越可视化和表征。 MS中的纵向脑感状MRI，涉及随着时间的推移重复对患者进行成像，为临床医生提供了有用的信息，以监测疾病进展。仅在有限的应用中尝试预测未来的整个大脑MRI检查，例如在有限的应用中，例如在阿尔茨海默氏病中的健康衰老和结构性变性。在本文中，我们为MS Flair图像合成的深度学习体系结构提供了新的修改，以支持以灵活的连续方式支持纵向图像的预测。这是通过学习的转移卷积来实现的，该卷积将建模时间作为空间分布的阵列，在不同的空间位置具有可变的时间特性。因此，这种方法理论上可以对空间特定的时间依赖性大脑发育进行建模，从而支持在适当的物理位置（例如MS脑损伤部位）建模更快的生长。这种方法还支持临床医生用户定义预测考试应针对的未来。对未来成像的准确预测可以为临床医生提供潜在的患者预后，这可能有助于早期治疗和更好的预后。已经开发了四个不同的深度学习体系结构。 ISBI2015纵向MS数据集用于验证和比较我们提出的方法。结果表明，修改后的ACGAN可实现最佳性能并降低模型准确性的可变性。

translated by 谷歌翻译

Lesion-Specific Prediction with Discriminator-Based Supervised Guided Attention Module Enabled GANs in Multiple Sclerosis

Jueqi Wang , Derek Berger , Erin Mazerolle , Jean-Alexis Delamer , Jacob Levman

分类：计算机视觉

2022-08-30

多发性硬化症（MS）是一种慢性神经系统疾病，其特征是大脑白质病变的发展。相对于其他MRI模态，T2流体减弱的反转恢复（FLAIR）脑磁共振成像（MRI）提供了MS病变的卓越可视化和表征。 MS中的后续大脑FLAIR MRI为临床医生提供了有用的信息，以监测疾病进展。在这项研究中，我们提出了对生成对抗网络（GAN）的新颖修饰，以预测MS以固定时间间隔的MS预测未来病变特异性MRI。我们在鉴别器中使用受监督的引导注意力和扩张卷积，该歧视者支持对生成图像是否实现的明智预测，这是基于对病变区域的关注，这反过来又有可能帮助改善生成器以预测病变区域将来的考试更准确。我们将我们的方法与几个基线和一种最先进的CF-Sagan模型进行了比较[1]。总之，我们的结果表明，与其他总体性能相似的模型相比，所提出的方法可实现更高的准确性，并减少病变区域预测误差的标准偏差。

translated by 谷歌翻译

Enhancing Audio Perception of Music By AI Picked Room Acoustics

Prateek Verma , Jonathan Berger

分类：人工智能 | 机器学习

2022-08-16

我们听到的每种声音都是连续的卷积操作的结果（例如，室内声学，麦克风特性，仪器本身的共振特性，更不用说声音复制系统的特征和局限性了）。在这项工作中，我们试图确定使用AI执行特定作品的最佳空间。此外，我们使用房间声学作为增强给定声音的感知品质的一种方式。从历史上看，房间（尤其是教堂和音乐厅）旨在主持和提供特定的音乐功能。在某些情况下，建筑声学品质增强了那里的音乐。我们试图通过指定房间冲动响应来模仿这一步骤，这些响应与为特定音乐产生增强的声音质量相关。首先，对卷积架构进行了培训，可以采用音频样本，并模仿各种仪器家族准确性约78％的专家的评分，并具有感知品质的笔记。这为我们提供了任何音频样本的评分功能，可以自动评分音符的感知愉悦度。现在，通过一个大约有60,000个合成冲动响应的库，模仿了各种房间，材料等，我们使用简单的卷积操作来改变声音，就好像它在特定的房间里播放一样。感知评估者用于对音乐声音进行排名，并产生“最佳房间或音乐厅”来播放声音。作为副产品，它还可以使用房间声学将质量差的声音变成“好”声音。

translated by 谷歌翻译

Behavior Trees and State Machines in Robotics Applications

Razan Ghzouli , Swaib Dragule , Thorsten Berger , Einar Broch Johnsen , Andrzej Wasowski

分类：机器人

2022-08-08

自主机器人结合了各种技能，形成越来越复杂的行为，称为任务。尽管这些技能通常以相对较低的抽象级别进行编程，但它们的协调是建筑分离的，并且经常以高级语言或框架表达。几十年来，州机器一直是首选的语言，但是最近，行为树的语言在机器人主义者中引起了人们的关注。行为树最初是为计算机游戏设计的，用于建模自主参与者，提供了基于树木的可扩展的使命表示，并受到支持支持模块化设计和代码的重复使用。但是，尽管使用了该语言的几种实现，但对现实世界中的用法和范围知之甚少。行为树提供的概念与传统语言（例如州机器）有何关系？应用程序中如何使用行为树和状态机概念？我们介绍了对行为树中关键语言概念的研究及其在现实世界机器人应用中的使用。我们识别行为树语言，并将其语义与机器人技术中最著名的行为建模语言进行比较。我们为使用这些语言的机器人应用程序挖掘开源存储库并分析此用法。我们发现两种行为建模语言在语言设计及其在开源项目中的用法之间的相似性方面，以满足机器人域的需求。我们为现实世界行为模型的数据集提供了贡献，希望激发社区使用和进一步开发这种语言，相关的工具和分析技术。

translated by 谷歌翻译